تشخیص خودکار جنسیت نویسنده در متون فارسی

Authors

مهدی مرادی

تهران- طرشت- کوچه اویار قاسم-خوابگاه شهید شوریده محمد بحرانی

دانشگاه صنعتی شریف

abstract

با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می شود. موضوع مورد بررسی در این تحقیق که مربوط به حوزه شناسایی نویسنده می باشد، شناسایی خودکار جنسیت نویسنده متن فارسی است. به منظور شناسایی جنسیت، با توجه به مطالعات زبان-روانشناختی صورت گرفته، 48 ویژگی روان شناختی و سبک شناسی تعریف شد. دو پیکره متنی جهت آموزش طبقه بندها تهیه شد و سپس برای شناسایی جنسیت، سه الگوریتم یادگیری ماشینی مختلف (ماشین بردار پشتیبان، بیز ساده و درخت تصمیم) طراحی شد. نتایج اعتبارسنجی متقابل10تایی نشان داد که بیشترین دقت مربوط به طبقهبند درخت تصمیم با دقت %73.8 است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

تکنیک‌های خلاصه‌سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم‌های فرااکتشافی

هدف:ارائه الگوی خلاصه‌سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه‌سازی به مسئله بهینه‌سازی توسط الگوریتم‌های فرااکتشافی سازگار. روش‌شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه‌های خبری از خبرگزاری‌های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده‌ای ...

full text

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

full text

تشخیص هویت نویسنده از روی دستخط فارسی

چکیده هویت شناسی از روی دست خط از موضوعات قابل توجه و یکی از عناوین جالب در زمینه تشخیص ? اخیراهویت نویسنده می باشد. پیشرفت های اخیر در تکنولوژی اطلاعات و همچنین نیاز روزافزون به امنیت بیشتر منجر به توسعه سریع سیستم های هوشمند تشخیص هویت بر اساس خصوصیات بیومتریک انسان شده است. اگرچه هویت شناسی از روی دست خط در مقایسه با خصوصیات بیومتریک نظیر چهره و اثرانگشت از بازده کمتری بهره مند است اما می ...

سیستم خودکار خلاصه ساز متون فارسی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing.   This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...

full text

My Resources

Save resource for easier access later


Journal title:
پردازش علائم و داده ها

جلد ۱۲، شماره ۴، صفحات ۸۳-۹۴

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023